Análisis morfosintáctico estadístico en lengua gallega

نویسندگان

  • Francisco Méndez Pazó
  • Francisco Campillo Díaz
  • Eduardo Rodríguez Banga
  • Elisa Fernández Rei
چکیده

This paper describes a morphosyntactic analyser in Galician which, apart from its obvious linguistic interest, can be easily applied to speech recognition and speech synthesis systems. While rule-driven models produce the better performance, stochastic models have shown a comparable accuracy when properly designed. Moreover, rule-driven models are based on a complex set of linguistic rules, quite difficult to maintain and not directly extensible to other languages. On the contrary, stochastic models allow a quick design, if a training corpus is available, and are extremely flexible as they can be adapted to other languages with minor changes in their source code. In order to train the statistic models we began to collect a Galician corpus which, at this time, consists of about 400,000 words with morphosyntactic annotations.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega

Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...

متن کامل

Etiquetario morfosintáctico del SLI para corpus de lengua gallega: aplicación al corpus paralelo TECTRA

In this article we present a complete and normalized morphosyntactic tagset for the annotation of linguistic corpora in Galician. The elaboration of this tagset, designed by the Computational Linguistics Group (SLI) of the University of Vigo, following strictly the EAGLES recommendations (Leech and Wilson, 1996), includes the creation of an intermediate tagset that allows us to establish a corr...

متن کامل

MorphOz: Una Plataforma de Desarrollo de Analizadores Sintáctico-Semánticos Multilinge

MorphOz es una plataforma de desarrollo de conocimientos lingüísticos que permite la confección de analizadores sintácticosemánticos en cualquier lengua. Estos analizadores se diferencian de otros parsers en que sus análisis sintácticos están acompañados de análisis semánticos generados a partir del análisis sintáctico obtenido. Estas representaciones semánticas son independientes de la lengua,...

متن کامل

Análisis de la diversidad morfosintáctica en las locuciones verbales

Resumen. La lengua permanece en constante cambio, disponiendo de una gran cantidad de palabras, combinación y unión de éstas, que permiten expresar un concepto determinado y que son utilizadas en diversos contextos. La fusión de las palabras permite construir frases; la inmensa mayoŕıa de frases están formadas por un verbo y una o varias variables. El verbo exige y realiza una rigurosa selecció...

متن کامل

Cómo crear piezas de conocimiento en ingeniería de requisitos: replicación y agregación experimentales

poder estadístico, número elevado de variables moderadoras, etc.). 4. Alternativas de solución: replicación y agregación experimental a. Realización de replicaciones experimentales b. Agregación cuando se conocen todos los datos c. Agregación cuando sólo se conoce el reporte experimental: meta-análisis.

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 31  شماره 

صفحات  -

تاریخ انتشار 2003